Neural approaches have become very popular in the domain of Question Answering, however they require a large amount of annotated data. Furthermore, they often yield very good performance but only in the domain they were trained on. In this work we propose a novel approach that combines data augmentation via question-answer generation with Active Learning to improve performance in low resource settings, where the target domains are diverse in terms of difficulty and similarity to the source domain. We also investigate Active Learning for question answering in different stages, overall reducing the annotation effort of humans. For this purpose, we consider target domains in realistic settings, with an extremely low amount of annotated samples but with many unlabeled documents, which we assume can be obtained with little effort. Additionally, we assume sufficient amount of labeled data from the source domain is available. We perform extensive experiments to find the best setup for incorporating domain experts. Our findings show that our novel approach, where humans are incorporated as early as possible in the process, boosts performance in the low-resource, domain-specific setting, allowing for low-labeling-effort question answering systems in new, specialized domains. They further demonstrate how human annotation affects the performance of QA depending on the stage it is performed.
translated by 谷歌翻译
现有的最新3D点云实例分割方法依赖于基于分组的方法,该方法指向获得对象实例。尽管产生准确的分割结果方面有所改善,但这些方法缺乏可扩展性,通常需要将大量输入分为多个部分。为了处理数百万点的场景,现有的最快方法软组\ cite {vu2022222222222222222222222222222222222222ggroup}需要数十秒钟,这是满意的。我们的发现是,$ k $ neart的邻居($ k $ -nn)是分组的先决条件,是计算瓶颈。这种瓶颈严重使现场的推理时间恶化了很多。本文提出了软组++来解决此计算瓶颈,并进一步优化了整个网络的推理速度。 SoftGroup ++建立在软组上,这在三个重要方面有所不同:(1)执行OCTREE $ K $ -NN而不是Vanilla $ k $ -nn,以将时间复杂性从$ \ Mathcal {o}(n^2)缩短到$ \ Mathcal {o}(n \ log n)$,(2)执行金字塔缩放,适应性下降样本骨干输出以减少$ k $ -nn和分组的搜索空间,并且(3)执行后期的Devoxelization,延迟了Voxels的转换指向模型的结束,以使中间组件以低计算成本运行。在各种室内和室外数据集上进行了广泛的实验,证明了拟议的软组++的功效。值得注意的是,SoftGroup ++在一个前方的情况下通过单个前方进行了大量的场景,而无需将输入分为多个部分,从而丰富了上下文信息。特别是,SoftGroup ++达到2.4点AP $ _ {50} $改进,而$ 6 \ $ 6 \ times $ $ $ $ $ $ $ $ $ $ $ $ $ $ $ $ $ $ $。代码和训练有素的模型将公开可用。
translated by 谷歌翻译
代码转换(CS)是多语言个体所表现出的常见语言现象,在一次对话中,它们倾向于在语言之间交替。 CS是一种复杂的现象,不仅包含语言挑战,而且还包含大量的复杂性,就其在说话者之间的动态行为而言。鉴于产生CS的因素因一个国家而异,并且从一个人到另一个人都不同,因此发现CS是一种依赖说话者的行为,在该行为中,外语被嵌入的频率在说话者之间有所不同。尽管几位研究人员从语言的角度研究了CS行为,但研究仍然缺乏从社会学和心理学角度预测用户CS行为的任务。我们提供了一项经验用户研究,我们研究用户的CS级别和性质特征之间的相关性。我们对双语者进行访谈,并收集有关他们的个人资料的信息,包括他们的人口统计学,个性特征和旅行经验。然后,我们使用机器学习(ML)根据其配置文件来预测用户的CS级别,在此我们确定建模过程中的主要影响因素。我们试验分类和回归任务。我们的结果表明,CS行为受到说话者之间的关系,旅行经验以及神经质和外向性人格特征的影响。
translated by 谷歌翻译
诗歌的语音综合是由于诗意语音固有的特定语调模式而具有挑战性的。在这项工作中,我们提出了一种将诗歌与几乎像人类一样自然的综合诗作的方法,以使文学学者能够系统地检查有关文本,口头实现和听众对诗歌的相互作用的假设。为了满足文学研究的这些特殊要求,我们通过从人类参考朗诵中克隆韵律价值来重新合成诗,然后利用细粒度的韵律控制来操纵在人类的环境中的合成语音以改变朗诵W.R.T.具体现象。我们发现,对诗歌的TTS模型进行鉴定会在很大程度上捕捉诗歌语调模式,这对韵律克隆和操纵是有益的,并在客观评估和人类研究中都验证了我们方法的成功。
translated by 谷歌翻译
在这项工作中,我们提出了一个说话者的匿名管道,该管道利用高质量的自动语音识别和合成系统来生成以语音转录和匿名扬声器嵌入为条件的语音。使用电话作为中间表示,可确保从输入中完全消除说话者身份信息,同时尽可能保留原始的语音内容。我们在Librispeech和VCTK Corpora上的实验结果揭示了两个关键发现:1)尽管自动语音识别会产生不完美的转录,但我们的神经语音合成系统可以处理此类错误,使我们的系统可行且健壮,并且2)结合来自不同资源的扬声器嵌入,有益及其适当的归一化至关重要。总体而言,我们的最终最佳系统在2020年语音隐私挑战挑战中提供的基线在与懒惰的攻击者的稳健性方面相当大,同时保持了匿名语音的高度理解性和自然性。
translated by 谷歌翻译
使用未转录的参考样本来克隆说话者的声音是现代神经文本到语音(TTS)方法的巨大进步之一。最近还提出了模仿转录参考音频的韵律的方法。在这项工作中,我们首次将这两项任务与话语级别的扬声器嵌入在一起,首次将这两个任务融合在一起。我们进一步引入了一个轻巧的对准器,用于提取细粒度的韵律特征,可以在几秒钟内对单个样品进行填充。我们表明,正如我们的客观评估和人类研究表明,我们可以独立地独立地独立语言参考的声音以及与原始声音和韵律高度相似的韵律的韵律,正如我们的客观评估和人类研究表明。我们的所有代码和训练有素的模型都可以以及静态和交互式演示。
translated by 谷歌翻译
提出了一种学习算法,称为最大利润率(MM),以考虑集体不平衡数据学习问题:训练有素的模型倾向于预测大多数班级而不是少数群体。也就是说,少数群体的适合似乎是概括的挑战之一。为了对少数群体进行良好的概括,我们设计了一个新的最大利润率(MM)损失函数,通过最大程度地减少通过转移决策结合的基于利润的概括。理论上原理的标签 - 分布式利润率(LDAM)损失已成功应用于先前的策略,例如重新采样或重新采样以及有效的培训时间表。但是,他们尚未研究最大保证金损失函数。在这项研究中,我们研究了两种类型的基于硬利润的决策边界的性能,其中LDAM对人为不平衡的CIFAR-10/100的培训时间表,以进行公平的比较和有效性。
translated by 谷歌翻译
深度学习一直是自然语言处理(NLP)领域的主流技术。但是,这些技术需要许多标记的数据,并且在整个域之间不太概括。元学习是机器学习研究方法的一个领域,以学习更好的学习算法。方法旨在改善各个方面的算法,包括数据效率和概括性。在许多NLP任务中已经显示出方法的功效,但是在NLP中没有系统的调查,这阻碍了更多的研究人员加入该领域。我们使用这篇调查文件的目标是为研究人员提供NLP中相关的元学习作品的指针,并吸引NLP社区的更多关注以推动未来的创新。本文首先介绍了元学习和共同方法的一般概念。然后,我们总结了任务构建设置和用于各种NLP问题的元学习的应用,并审查NLP社区中元学习的发展。
translated by 谷歌翻译
尽管可解释的AI的大量研究重点是产生有效的解释,但较少的工作致力于人们如何理解和解释解释的问题。在这项工作中,我们通过研究基于显着性数据的解释来关注这个问题。文本模型的特征属性解释旨在传达输入文本的哪些部分比其他部分更具影响力。许多当前的解释方法,例如基于梯度或基于沙普利价值的方法,都提供了重要的衡量标准,这些方法在数学上是众所周知的。但是,一个人接受解释(解释)如何理解它?他们的理解是否与解释试图交流的内容相匹配?我们从经验上研究了输入的各种因素,特征 - 贡献解释和可视化程序对Laypeople对解释的解释的影响。我们询问人群工人对英语和德语的任务进行解释,并根据感兴趣的因素适合他们的回答。我们发现人们经常误解解释:尽管有直接传达重要性的解释,但肤浅和无关的因素(例如单词长度)影响了解释者的重要性分配。然后,我们证明其中一些失真可以减弱:我们提出了一种基于过度感受和低估的模型估计的方法来调整销售的方法,并探索条形图作为热图显着性可视化的替代方法。我们发现两种方法都可以减轻特定因素的扭曲作用,从而使对解释的理解更好地理解。
translated by 谷歌翻译
代码切换(CS)是多语言社区中的常见语言现象,其包括在说话时在语言之间切换。本文提出了我们对普通话 - 英语CS演讲的结束地理识别的调查。我们分析了不同的CS特定问题,例如CS语言对中语言之间的属性不匹配,切换点的不可预测性质,以及数据稀缺问题。通过使用分层Softmax的语言识别通过建模子字单元来利用非语言识别来利用非统计符号来利用和改善最先进的端到端系统,通过人为地降低说话率,并通过使用增强数据来实现子字单元。使用速度扰动技术和几个单机数据集不仅可以在CS语音上提高最终性能,还可以在单​​格式基准上,以使系统更适用于现实生活环境。最后,我们探讨了不同语言模型集成方法对提出模型性能的影响。我们的实验结果表明,所有提出的技术都提高了识别性能。最佳组合系统在混合误差率方面将基线系统提高到35%,并在单机基准上提供可接受的性能。
translated by 谷歌翻译